Главная >> Информатика 10 класс. Босова

§ 23. Текстовые документы

Другие возможности автоматизации обработки текстовой информации

Компьютер помогает не только автоматизировать процесс создания текстовых документов, но и решить множество других задач, связанных с обработкой текстовой информации. Вот некоторые из них:

  • поиск текста в общем массиве по заданным нечётким признакам;
  • рубрицирование текста — разбиение поступающего потока текстов на тематические подпотоки в соответствии с заранее заданными рубриками;
  • реферирование текста — подготовка его сокращённой версии;
  • перевод текста с одного языка на другой;
  • анализ текста на предмет выявления заимствований.

Область информатики, решающая эти и другие задачи, связанные с обработкой информации на естественном языке, называется компьютерной лингвистикой.

Рассмотрим более подробно задачу поиска текста в общем массиве. Существует несколько подходов к её решению.

Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и другие элементы. Основное достоинство такого подхода — возможность применять его к массиву текста без предварительной обработки (например, сразу при посимвольном получении текста). Применение рассматриваемого способа бывает затруднено, если текст хранится в разных местах.

Второй подход предусматривает предварительную обработку текста с целью получения его преобразованного, сокращённого вида (индекса). Получив запрос, поисковая система выделяет список слов и составляет список документов, в которых они содержатся. При этом рассчитывается релевантность — мера соответствия документа запросу, зависящая от наличия искомых слов, близости их друг к другу и других параметров. Документы с высокой релевантностью помещаются в начало списка, с низкой — в конец.

Одно из интересных применений автоматического анализа текстов — выявление заимствований.

Антиплагиат (antiplagiat.ru) — российский интернет-проект, программно-аппаратный комплекс для проверки текстовых документов на наличие заимствований из страниц сети Интернет и других источников. Проект доступен для всех пользователей.

 

 

???????@Mail.ru